智能论文笔记

BanglaSarc: A Dataset for Sarcasm Detection

Tasnim Sakib Apon , Ramisa Anan , Elizabeth Antora Modhu , Arjun Suter , Ifrit Jamal Sneha , MD. Golam Rabiul Alam

分类：自然语言处理 | 人工智能

2022-09-27

作为世界上口语最广泛的语言之一，孟加拉国的使用在社交媒体世界中也在增加。讽刺是一种积极的陈述或言论，其基本的负面动机在当今的社交媒体平台中广泛使用。在过去的许多年中，英语的讽刺检测有了显着改善，但是有关孟加拉讽刺检测的情况仍然没有改变。结果，仍然很难识别孟加拉国中的讽刺，缺乏高质量的数据是主要因素。本文提出了Banglasarc，该数据集是专门为孟加拉文本数据讽刺检测的数据集。该数据集包含5112条评论/状态和从各种在线社交平台（例如Facebook，YouTube）以及一些在线博客中收集的内容。由于孟加拉语中分类评论的数据收集数量有限，因此该数据集将有助于确定讽刺的研究，认识到人们的情绪，检测到各种类型的孟加拉语表达式和其他领域。该数据集可在https://www.kaggle.com/datasets/sakibapon/banglasarc上公开获得。

translated by 谷歌翻译

ON-DEMAND-FL: A Dynamic and Efficient Multi-Criteria Federated Learning Client Deployment Scheme

Mario Chahoud , Hani Sami , Azzam Mourad , Safa Otoum , Hadi Otrok , Jamal Bentahar , Mohsen Guizani

分类：人工智能 | 机器学习

2022-11-05

In this paper, we increase the availability and integration of devices in the learning process to enhance the convergence of federated learning (FL) models. To address the issue of having all the data in one location, federated learning, which maintains the ability to learn over decentralized data sets, combines privacy and technology. Until the model converges, the server combines the updated weights obtained from each dataset over a number of rounds. The majority of the literature suggested client selection techniques to accelerate convergence and boost accuracy. However, none of the existing proposals have focused on the flexibility to deploy and select clients as needed, wherever and whenever that may be. Due to the extremely dynamic surroundings, some devices are actually not available to serve as clients in FL, which affects the availability of data for learning and the applicability of the existing solution for client selection. In this paper, we address the aforementioned limitations by introducing an On-Demand-FL, a client deployment approach for FL, offering more volume and heterogeneity of data in the learning process. We make use of the containerization technology such as Docker to build efficient environments using IoT and mobile devices serving as volunteers. Furthermore, Kubernetes is used for orchestration. The Genetic algorithm (GA) is used to solve the multi-objective optimization problem due to its evolutionary strategy. The performed experiments using the Mobile Data Challenge (MDC) dataset and the Localfed framework illustrate the relevance of the proposed approach and the efficiency of the on-the-fly deployment of clients whenever and wherever needed with less discarded rounds and more available data.

translated by 谷歌翻译

An End-to-End OCR Framework for Robust Arabic-Handwriting Recognition using a Novel Transformers-based Model and an Innovative 270 Million-Words Multi-Font Corpus of Classical Arabic with Diacritics

Aly Mostafa , Omar Mohamed , Ali Ashraf , Ahmed Elbehery , Salma Jamal , Anas Salah , Amr S. Ghoneim

分类：计算机视觉 | 自然语言处理 | 机器学习

2022-08-20

这项研究是有关阿拉伯历史文档的光学特征识别（OCR）的一系列研究的第二阶段，并研究了不同的建模程序如何与问题相互作用。第一项研究研究了变压器对我们定制的阿拉伯数据集的影响。首次研究的弊端之一是训练数据的规模，由于缺乏资源，我们的3000万张图像中仅15000张图像。另外，我们添加了一个图像增强层，时间和空间优化和后校正层，以帮助该模型预测正确的上下文。值得注意的是，我们提出了一种使用视觉变压器作为编码器的端到端文本识别方法，即BEIT和Vanilla Transformer作为解码器，消除了CNNs以进行特征提取并降低模型的复杂性。实验表明，我们的端到端模型优于卷积骨架。该模型的CER为4.46％。

translated by 谷歌翻译

Multi-Modal Unsupervised Pre-Training for Surgical Operating Room Workflow Analysis

Muhammad Abdullah Jamal , Omid Mohareri

分类：计算机视觉

2022-07-16

数据驱动的方法来协助手术室（OR）工作流程分析取决于耗时且收集昂贵的大型策划数据集。另一方面，我们看到最近从监督学习转变为可以从未标记数据集中学习表示的自我监督和/或无监督学习方法。在本文中，我们利用机器人手术中捕获的未标记数据，并提出了一种新颖的方法，以融合单个视频框架或图像的多模式数据。我们将多模式数据视为不同的观点，而不是同一图像或视频框架的不同图像或视频框架的不同增强（或“视图”）作为不同的观点，可以通过聚类以无监督的方式训练模型。我们将我们的方法与其他最新方法进行了比较，结果表明，我们的方法在手术视频活动识别和语义细分方面的表现出色。

translated by 谷歌翻译

Efficient and Privacy Preserving Group Signature for Federated Learning

Sneha Kanchan , Jae Won Jang , Jun Yong Yoon , Bong Jun Choi

分类：机器学习

2022-07-12

联合学习（FL）是一种机器学习（ML）技术，旨在减少对用户数据隐私的威胁。培训是使用用户设备上的原始数据（称为客户端）进行的，只有称为梯度的培训结果被发送到服务器进行汇总并生成更新的模型。但是，我们不能假设可以使用私人信息来信任服务器，例如与数据所有者或数据源相关的元数据。因此，将客户信息隐藏在服务器中有助于减少与隐私相关的攻击。因此，客户身份的隐私以及客户数据的隐私是使此类攻击更加困难的必要条件。本文提出了基于组签名的FL的高效和隐私权协议。一个名为GSFL的新组合签名旨在保护客户数据和身份的隐私，而且考虑考虑到联合学习的迭代过程，还大大降低了计算和通信成本。我们表明，在计算，通信和信号成本方面，GSFL优于现有方法。另外，我们表明所提出的协议可以在联合学习环境中处理各种安全攻击。

translated by 谷歌翻译

Interpretability by design using computer vision for behavioral sensing in child and adolescent psychiatry

Flavia D. Frumosu , Nicole N. Lønfeldt , A. -R. Cecilie Mora-Jensen , Sneha Das , Nicklas Leander Lund , A. Katrine Pagsberg , Line K. H. Clemmensen

分类：计算机视觉 | 机器学习

2022-07-11

观察是理解和研究人类行为和精神状态的重要工具。但是，编码人类行为是一项耗时，昂贵的任务，在这种任务中，可靠性可能难以实现，偏见是一种风险。机器学习（ML）方法提供了提高可靠性，降低成本并扩展行为编码以在临床和研究环境中应用的行为编码的方法。在这里，我们使用计算机愿景来得出黄金标准行为评级系统的行为代码或概念，为精神卫生专业人员提供熟悉的解释。从有或没有强迫症的儿童和青少年的临床诊断访谈视频中提取了特征。我们的计算评级与人类的专家评级相当，在负面情绪，活动水平/唤醒和焦虑方面。为了关注和积极影响概念，我们的ML等级表现合理。但是，凝视和发声的结果表明需要提高数据质量或其他数据方式。

translated by 谷歌翻译

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava , Abhinav Rastogi , Abhishek Rao , Abu Awal Md Shoeb , Abubakar Abid , Adam Fisch , Adam R. Brown , Adam Santoro , Aditya Gupta , Adrià Garriga-Alonso

分类：自然语言处理 | 人工智能 | 机器学习 | (统计)机器学习

2022-06-09

语言模型既展示了定量的改进，又展示了新的定性功能，随着规模的增加。尽管它们具有潜在的变革性影响，但这些新能力的特征却很差。为了为未来的研究提供信息，为破坏性的新模型能力做准备，并改善社会有害的效果，至关重要的是，我们必须了解目前和近乎未来的能力和语言模型的局限性。为了应对这一挑战，我们介绍了超越模仿游戏基准（Big Bench）。 Big Bench目前由204个任务组成，由132家机构的442位作者贡献。任务主题是多样的，从语言学，儿童发展，数学，常识性推理，生物学，物理学，社会偏见，软件开发等等。 Big-Bench专注于被认为超出当前语言模型的功能的任务。我们评估了OpenAI的GPT型号，Google内部密集变压器体系结构和大型基础上的开关稀疏变压器的行为，跨越了数百万到数十亿个参数。此外，一个人类专家评估者团队执行了所有任务，以提供强大的基准。研究结果包括：模型性能和校准都随规模改善，但绝对的术语（以及与评估者的性能相比）；在模型类中的性能非常相似，尽管带有稀疏性。逐渐和预测的任务通常涉及大量知识或记忆成分，而在临界规模上表现出“突破性”行为的任务通常涉及多个步骤或组成部分或脆性指标；社交偏见通常会随着含糊不清的环境而随着规模而增加，但这可以通过提示来改善。

translated by 谷歌翻译

An Empirical Study on Activity Recognition in Long Surgical Videos

Zhuohong He , Ali Mottaghi , Aidean Sharghi , Muhammad Abdullah Jamal , Omid Mohareri

分类：计算机视觉

2022-05-05

手术视频中的活动识别是开发下一代设备和工作流程监测系统的关键研究领域。由于手术是具有高度变化长度的较长过程，因此用于手术视频的深度学习模型通常包括使用主链和时间序列模型的两阶段设置。在本文中，我们研究了许多最新的骨干和时间模型，以找到为手术活动识别提供最强性能的体系结构。我们首先在大规模活动识别数据集上进行模型性能，该数据集包含在多个临床手术室中捕获的800多个手术视频。我们进一步评估了两个较小的公共数据集（Cholec80和Cataract-101数据集）上的模型，分别包含80个视频和101个视频。我们从经验上发现，Swin-Transformer+BigRU时间模型在两个数据集上都产生了强劲的性能。最后，我们通过对新医院进行微调模型来研究模型对新领域的适应性，并试验最近无监督的域适应方法。

translated by 谷歌翻译

Small Object Detection using Deep Learning

Aleena Ajaz , Ayesha Salar , Tauseef Jamal , Asif Ullah Khan

分类：计算机视觉 | 机器学习

2022-01-10

现在，诸如无人机之类的无人机，从捕获和目标检测的各种目的中，从Ariel Imagery等捕获和目标检测的各种目的很大使用。轻松进入这些小的Ariel车辆到公众可能导致严重的安全威胁。例如，可以通过使用无人机在公共公共场合中混合的间谍来监视关键位置。在手中研究提出了一种改进和高效的深度学习自治系统，可以以极大的精度检测和跟踪非常小的无人机。建议的系统由自定义深度学习模型Tiny Yolov3组成，其中一个非常快速的物体检测模型的口味之一，您只能构建并用于检测一次（YOLO）。物体检测算法将有效地检测无人机。与以前的Yolo版本相比，拟议的架构表现出显着更好的性能。在资源使用和时间复杂性方面观察到改进。使用召回和精度分别为93％和91％的测量来测量性能。

translated by 谷歌翻译

Deep Learning based Framework for Automatic Diagnosis of Glaucoma based on analysis of Focal Notching in the Optic Nerve Head

Sneha Dasgupta , Rishav Mukherjee , Kaushik Dutta , Anindya Sen

分类：计算机视觉

2021-12-10

视网膜眼底图像的自动评估是涌现为最重要的早期检测和治疗渐进眼疾病的工具之一。青光眼导致视力的进步退化，其特征在于光学杯形状的变形和血管的变性导致沿神经垂体边缘形成凹口的形成。在本文中，我们提出了一种基于深度学习的管道，用于从数字眼底图像（DFIS）的光盘（OD）和光学杯（OC）区域的自动分割，从而提取预测青光眼所需的不同特征。该方法利用了神经古代轮辋的局灶性凹口分析以及杯盘比值值作为分类参数，以提高计算机辅助设计（CAD）系统的准确性分析青光眼。支持基于向量的机器学习算法用于分类，基于提取的功能将DFIS分类为青光眼或正常。在自由可用的DRISHTI-GS数据集上评估了所提出的管道，得到了从DFIS检测青光眼的93.33％的精度。

translated by 谷歌翻译